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Beschreibung 

Sprachsteuerung von Audio- und Videogeraten 

5 Durch die Gesetzgebung und zur Erhohung der Sicherheit wird 
die Benutzung von Spracherkennung bei Applikationen im Auto- 
motive-Bereich in Zukunft verstarkt Anwendung finden. Neben 
Telephonieanwendungen werden Sprachsteuerungen mittlerweile 
auch ftir Telematiksysteme, Inf otainment-Systeme und In-Car- 
10 Systeme wie Klimaanlagen eingesetzt. Das verwendete Vokabular 
ist durch die aktuellen Erkenner bedingt einfach strukturiert 
und in der Regel kommandobasiert . 

Die Sprachsteuerung von CD-Geraten erfolgt dabei in derzeiti- 
15 gen Produkten mittels Kommandos ftir die Grundbefehle wie etwa 
"Stopp", "Play", "Pause" etc. Die Auswahl der zu spielenden 
Titel wird mittels der Nummer des Titels eingegeben, also 
beispielsweise durch "Play 5". Der Erkenner kann sich dabei 
auf das Erkennen des Kommandowortes in Verbindung mit einer 
20 Zahl beschranken. Da der Benutzer jedoch die Zuordnung der 
Titel zur Nurniner auf der CD oftmals nicht kennt, ist dies 
Vorgehensweise unkomf ortabel . 

Davon ausgehend liegt der Erfindung die Aufgabe zugrunde, die 
25 Bedienung von Audio- und Videogeraten einfacher, komf ortabler 
und sicherer zu machen, 

Diese Aufgabe wird durch die in den unabh^ngigen Patentan- 
spruchen angegebenen Erfindungen gel5st. Vorteilhafte Ausges- 
30 taltungen ergeben sich aus den abhangigen Anspruchen. 

Dement sprechend sind in einem Verfahren zur Spracherkennung 
Multimediadaten auf einem Speichermedium gespeichert. Den 
Multimediadaten sind Textdaten zugeordnet. In einer Graphem- 
35 zu-Phonem-Konvertierung werden die Textdaten als Grapheme 
Phonemen zugeordnet. Sodann konnen die Textdaten mit ihren' 
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zugeh5rigen Phonemen als Vokabular eines Spracherkenners ver- 
wendet warden. 

Dadurch ergibt sich ein sehr reduziertes und auf die jeweili- 
5 ge Audio- und/oder Videoanwendung spezif iziertes Erkennervo- 
kabular, das auch von einem Spracherkenner mit sehr geringen 
Ressourcen verarbeitet werden kann, wie er liblicherweise bei 
eingebetteten Spracherkennungslosungen im Auto Oder in ande- 
ren Video- und/oder Audiogeraten vorliegt. 

10 

Durch diese Vorgehensweise wird es ermeglicht^ einen Titel 
beispielsweise durch "Play Waterloo" oder nur "Waterloo" di- 
rekt einzugeben, ohne dass der Benutzer sich wShrend der Au- 
tofahrt nebenbei noch die richtige Titelnuminer uberlegen 
15 muss. Speziell bei Audiosystemen mit CD-Wechslern ist ein di- 
rekter Zugriff wunschenswert . 

Multimediadaten konnen Audio-, Video- Oder Bilddaten sein. 
Das Speichermedium kann eine Audio-CD, eine Video-CD, eine 
20 DVD, ein mp3-Player, ein Festplatten-Videorekorder , eine 

Festplatte, eine Photo-CD, eine Diskette, ein USB-Stick, eine 
Mini-Disc oder jedes andere fest eingebaute Oder wechselbare 
bzw. portable Speichermedium ein. 

25 GemaJB einer Ausfiihrungsf orm sind die Multimediadaten Audioda- 
ten und das Speichermedium eine CD. 

Soweit die CD CD-Text aufweist, sind die den Audiodaten zuge- 
ordneten Textdaten auf der CD als CD-Text gespeichert. Diese 
30 k5nnen dann direkt fur die Graphem-zu-Phonem-Konvertierung 
herangezogen werden. 



35 



Die Multimediadaten kSnnen beispielsweise MP3-Daten sein. 
Dann sind die Textdaten vorzugsweise in einer Playlist ge- 
speichert . 
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Die den Multimediadaten zugeordneten Textdaten konnen auch 
allgemein in einem Inhaltsverzeichnis des Speichermediums ge- 
speichert sein^ das die Multimediadaten enthalt. 

5 Gemafi einer Ausf lihrungsf orm sind die Multimediadaten Videoda- 
ten. Das Speichermedium kann dabei zum Beispiel eine DVD 
sein . 

Alternativ oder erganzend konnen die den Multimediadaten zu- 
10 geordneten Textdaten von einer zentralen Datenbank abgerufen 
werden, insbesondere uber das Internet aus einer Internet- 
Datenbank • 

Die Textdaten enthalten vorzugsweise den Namen des oder der 
15 Interpreten und/oder den Titel der Multimediadaten^ denen sie 
zugeordnet sind. 

Insbesondere wird iiber das Verfahren ein MutlimediagerSt mit 
Hilfe des Spracherkenners gesteuert. Das Multimediagerat kann 
20 ein CD-Player, ein mp3-Player^ ein CD-Wechsler, ein Mini- 
Disc-Player, ein Videorekorder, ein DVD-Player oder ein ver- 
gleichbares Gerat sein. 

In einem weiteren Schritt konnen die Textdaten liber eine 
25 Text-zu-Sprache-Konvertierung akustisch ausgegeben werden, so 
dass dem Benutzer seine Wahlmoglichkeiten, insbesondere bin- 
sichtlich Titel und Interpreten, vorgelesen werden. 

Eine Anordnung,. die eingerichtet ist, eines der geschilderten 
30 Verfahren auszuftihren, l^sst sich zum Beispiel durch Program- 
mieren und Einrichtung einer Datenverarbeitungsanlage mit zu 
den genannten Verf ahrensschritten geh5rigen Mitteln realisie- 
ren. 

35 Die Anordnung kann beispielsweise ein Autoradio, insbesondere 
integriert mit Navigationssystem, ein CD-Spieler und/oder ein 
DVD-Spieler sein. 
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Weitere Merkmale und Vorteile der Erfindung ergeben sich aus 
der Beschreibung von Ausf tihrungsbeispielen. 

5 In einem Verfahren zur Spracherkennung wird eine Graphem-zu- 
Phonem-Technologie bei einem eingebetteten Spracherkenner da-- 
zu verwendet, dass die Titelnamen von Songs in Phonem-Folgen 
konvertiert werden und als Erkennervokabular zur sprachlichen 
Ansteuerung von CD-, DVD- und/oder MP3-Playern eingesetzt 
10 werden. Dies erlaubt dem Benutzer eine direkte Anwahl der 

Songs liber Titel, Interpreten oder alternativ konventionell 
uber die gewohnte Nummern-Nomenklatur . 

Werden zu den als Vokabular aufbereiteten Titeln verschiede- 
15 ner CDs die zugeordneten Positionen im CD-Wechsler vermerkt, 
kann bei der sprachlichen Eingabe der Titel erkannt und einer 
bestinmiten CD zugeordnet werden. Der Wechsler kann die ge- 
wunschte CD einlegen und den gewahlten Song abspielen. Die 
Vokabulargrofie in einem 5-f ach-Wechsler mit jeweils 20 Lie- 
20 dern pro CD betragt demnach ca. 100 Eintrage. Dies stellt ei- 
ne VokabulargroiJe dar, die mit gangiger Technologie von ein- 
gebetteten Spracherkennern abgedeckt werden kann. 

Da Song-Titel in unterschiedlichen Sprachen vorliegen konnen, 
25 ist vor der Konvertierung der Titel in Phonem-Folgen eine 

Sprachidentif ikation durchzuf tihren, die den geeigneten Pho- 
nem-Set und die korrekten sprachspezif ischen Konvertierungs- 
regeln festlegt. 

30 Bei Audio-CDs liegen die Song-Titel in Text form auf CD-Text- 
kompatiblen CDs vor. Als alternative Ldsung in vernetzten 
Fahrzeugen kann die Titelliste per Download zur Verfiigung ge- 
stellt werden. 

35 Es werden also Textdaten von Audio- und/oder Videomedien als 
Vokabularbasis fur den Spracherkenner verwendet. Die direkte 
Sprachanwahl von Songtiteln erlaubt eine komfortable und fur 
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den Fahrer wenig ablenkende Methode zur Bedienung des CD- und 
MP3-Equipments in Fahrzeugen. Durch die Nutzung der Graphem- 
zu-Phonem-Technologie kann diese direkte Sprachanwahl reali- 
siert werden und dem Benutzer im Rahmen seiner Sprach- 
5 Bedienoberf lache zur Verfiigung gestellt werden. 

Das vorgestellte Verfahren ist aufgrund seiner Sichtbarkeit 
an der Benutzeroberf lache leicht nachweisbar. Durch die deut- 
liche Komf orterhohung ist der Mehrwert durch den Benutzer 
10 groii und erkennbar. Da sich sprecherunabhangige Systeme auf 
langere Frist auch im Automotive-Bereich durchsetzen werden, 
bietet sich eine sprachliche CD- und/oder DVD-Ansteuerung als 
ideale ErgSnzung an. 

15 Das Verfahren kann beispielsweise direkt fiir CDs im CD-Text- 
Format verwendet werden. Auf einer Audio-CD sind neben den 
eigentlichen Musikdaten noch Zusatzdaten gespeichert, so ge- 
nannte "Sub-Channels". Es gibt dabei acht Sub-Channels (p, 
r, s, t, u, V und w) . Der q-Sub-Channel enthalt beispielswei- 

20 se Inf ormationen tiber die momentane Position. Eine besondere 
Stellung nimmt der Leadin-Bereich ein. Der Leadin-Bereich ist 
ein Bereich vor den normalen Musikdaten und enthalt in den 
q-Sub-Channels die "Table of Contents" (TOC) der CD, also das 
Inhaltsverzeichnis der CD. In der TOC sind die Anf angspositi- 

25 onen der einzelnen Tracks gespeichert. In den Sub-Channels 

r-w des Leadins werden nun die CD-Text-Inf ormationen gespei- 
chert, beispielsweise der Name der CD, die Namen der Tracks 
sowie die Interpreten. 

30 Mit dieser Information kann ftir den Spracherkenner ein Voka- 
bular dynamisch erzeugt werden. Dank Graphem-zu-Phonem- 
Konvertierung k5nnen dabei die Textdaten in Erkenner- 
verstandliche Phonemketten umgesetzt werden. Zur Bedienung 
kann dann das Vokabular oder Telle davon zur Steuerung des 

35 Audio- und/oder Videogerats verwendet werden. 
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Patentanspruche 

1 . Verf ahren zur Spracherkennung, 

- bei dem Multimediadaten auf einem Speichermedium gespei- 
chert sind, 

- bei dem den Multimediadaten jeweils Textdaten zugeordnet 
sind^ 

- bei dem Grapheme der Textdaten Phonemen zugeordnet werden, 

- bei dem die Textdaten mit ihren zugeh5rigen Phonemen als 
Vokabular eines Spracherkenners verwendet werden. 

2. Verf ahren nach Anspruch 1^ 

bei dem die Multimediadaten Audiodaten sind und das Speicher- 
medium eine CD ist. 

3. Verf ahren nach Anspruch 2, 

bei dem die den Audiodaten zugeordneten Textdaten auf der CD 
als CD-Text gespeichert sind. 

20 4 . Verf ahren nach einem der vorhergehenden Anspruche^ 
bei dem die Multimediadaten MP3-Audiodaten sind. 

5. Verf ahren nach Anspruch 4^ 

bei dem die Textdaten in einer Playlist gespeichert sind. 

25 

6. Verf ahren nach Anspruch 1, bei dem die Multimediadaten Vi- 
deodaten sind. 

7. Verf ahren nach Anspruch 1, bei dem das Speichermedium eine 
30 DVD ist. 

8. Verf ahren nach einem der vorhergehenden Ansprtiche, 

bei dem die Textdaten in einem Inhaltsverzeichnis auf dem 
Speichermedium gespeichert sind. 

35 



5 
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9. Verfahren nach einem der vorhergehenden Anspruche/ 

bei dem die Textdaten von einer zentralen Datenbank abgerufen 

warden, insbesondere tiber das Internet. 

5 10. Verfahren nach einem der vorhergehenden Anspruche, 

bei dem die Textdaten den Namen des Interpreten und/oder den 
Titel der Multimediadaten enthalten, denen sie zugeordnet 
sind- 

10 11- Verfahren nach einem der vorhergehenden Ansprtiche, 

bei dem ein Multimediagerat tiber den Spracherkenner gesteuert 
wird. 

12. Verfahren nach einem der vorhergehenden Ansprtiche, 

15 bei dem die Textdaten zumindest teilweise in einer Text-zu- 
Sprache-Konvertierung konvertiert und akustisch ausgegeben 
we r den . 

13. Anordnung, die eingerichtet ist, ein Verfahren nach zu- 
20 mindest einem der vorstehenden Anspruche auszufuhren. 

14. Anordnung nach Anspruch 13, 
dadurch gekennzeichnet, 

dass die Anordnung ein Auto, ein Autoradio, ein CD-Spieler 
25 und/oder ein DVD-Spieler ist. 



